数据增强是使用深度学习来提高对象识别的识别精度的重要技术。从多个数据集中产生混合数据(例如混音)的方法可以获取未包含在培训数据中的新多样性,从而有助于改善准确性。但是,由于在整个训练过程中选择了选择用于混合的数据,因此在某些情况下未选择适当的类或数据。在这项研究中,我们提出了一种数据增强方法,该方法根据班级概率来计算类之间的距离,并可以从合适的类中选择数据以在培训过程中混合。根据每个班级的训练趋势,对混合数据进行动态调整,以促进培​​训。所提出的方法与常规方法结合使用,以生成混合数据。评估实验表明,提出的方法改善了对一般和长尾图像识别数据集的识别性能。
translated by 谷歌翻译
在对象检测中,数据量和成本是一种权衡,在特定领域中收集大量数据是劳动密集型的。因此,现有的大规模数据集用于预训练。但是,当目标域与源域显着不同时,常规传输学习和域的适应性不能弥合域间隙。我们提出了一种数据合成方法,可以解决大域间隙问题。在此方法中,目标图像的一部分被粘贴到源图像上,并通过利用对象边界框的信息来对齐粘贴区域的位置。此外,我们介绍对抗性学习,以区分原始区域或粘贴区域。所提出的方法在大量源图像和一些目标域图像上训练。在非常不同的域问题设置中,所提出的方法比常规方法获得更高的精度,其中RGB图像是源域,而热红外图像是目标域。同样,在模拟图像与真实图像的情况下,提出的方法达到了更高的精度。
translated by 谷歌翻译
尽管最近的基于学习的校准方法可以从单个图像预测外部和内在的相机参数,但这些方法的准确性在Fisheye图像中劣化。这种劣化是由实际投影和预期投影之间的不匹配引起的。为了解决这个问题,我们提出了一种通用相机模型,具有解决各种类型的失真。我们的通用摄像机模型用于通过相机投影的闭合形式计算基于学习的方法。同时恢复旋转和鱼眼失真,我们提出了一种使用相机模型的基于学习的校准方法。此外,我们提出了一种损失函数,可以减轻四种外在和内在相机参数的误差幅度的偏差。广泛的实验表明,我们所提出的方法在两种大型数据集和由现成的Fisheye相机捕获的图像上表现优于传统方法。此外,我们是第一位分析基于学习的方法的性能的研究人员,使用各种类型的搁板摄像机的投影。
translated by 谷歌翻译
Generative models, particularly GANs, have been utilized for image editing. Although GAN-based methods perform well on generating reasonable contents aligned with the user's intentions, they struggle to strictly preserve the contents outside the editing region. To address this issue, we use diffusion models instead of GANs and propose a novel image-editing method, based on pixel-wise guidance. Specifically, we first train pixel-classifiers with few annotated data and then estimate the semantic segmentation map of a target image. Users then manipulate the map to instruct how the image is to be edited. The diffusion model generates an edited image via guidance by pixel-wise classifiers, such that the resultant image aligns with the manipulated map. As the guidance is conducted pixel-wise, the proposed method can create reasonable contents in the editing region while preserving the contents outside this region. The experimental results validate the advantages of the proposed method both quantitatively and qualitatively.
translated by 谷歌翻译
我们提出了一种轻巧,准确的方法,用于检测视频中的异常情况。现有方法使用多个实体学习(MIL)来确定视频每个段的正常/异常状态。最近的成功研​​究认为,学习细分市场之间的时间关系很重要,以达到高精度,而不是只关注单个细分市场。因此,我们分析了近年来成功的现有方法,并发现同时学习所有细分市场确实很重要,但其中的时间顺序与实现高准确性无关。基于这一发现,我们不使用MIL框架,而是提出具有自发机制的轻质模型,以自动提取对于确定所有输入段正常/异常非常重要的特征。结果,我们的神经网络模型具有现有方法的参数数量的1.3%。我们在三个基准数据集(UCF-Crime,Shanghaitech和XD-Violence)上评估了方法的帧级检测准确性,并证明我们的方法可以比最新方法实现可比或更好的准确性。
translated by 谷歌翻译
我们为基于语义信息(称为ConceptBeam的语义信息)提出了一个新颖的框架。目标语音提取意味着在混合物中提取目标扬声器的语音。典型的方法一直在利用音频信号的性能,例如谐波结构和到达方向。相反,ConceptBeam通过语义线索解决了问题。具体来说,我们使用概念规范(例如图像或语音)提取说话者谈论概念的演讲,即感兴趣的主题。解决这个新颖的问题将为对话中讨论的特定主题等创新应用打开门。与关键字不同,概念是抽象的概念,使直接代表目标概念的挑战。在我们的方案中,通过将概念规范映射到共享的嵌入空间,将概念编码为语义嵌入。可以使用由图像及其口语字幕组成的配对数据进行深度度量学习来构建这种独立的空间。我们使用它来桥接模式依赖性信息,即混合物中的语音段以及指定的,无模式的概念。作为我们方案的证明,我们使用与口语标题相关的一组图像进行了实验。也就是说,我们从这些口语字幕中产生了语音混合物,并将图像或语音信号用作概念指定符。然后,我们使用已识别段的声学特征提取目标语音。我们将ConceptBeam与两种方法进行比较:一种基于从识别系统获得的关键字,另一个基于声音源分离。我们表明,概念束明显优于基线方法,并根据语义表示有效提取语音。
translated by 谷歌翻译
公共网站上可用的音频数据量正在迅速增长,并且需要有效访问所需数据的有效机制。我们提出了一种基于内容的音频检索方法,该方法可以通过引入辅助文本信息来检索与查询音频相似但略有不同的目标音频,该信息描述了查询和目标音频之间的差异。虽然传统基于内容的音频检索的范围仅限于与查询音频相似的音频,但提出的方法可以通过添加辅助文本查询模型的嵌入来调整检索范围,以嵌入查询示例音频中的嵌入共享的潜在空间。为了评估我们的方法,我们构建了一个数据集,其中包括两个不同的音频剪辑以及描述差异的文本。实验结果表明,所提出的方法比基线更准确地检索配对的音频。我们还基于可视化确认了所提出的方法获得了共享的潜在空间,在该空间中,音频差和相应的文本表示为相似的嵌入向量。
translated by 谷歌翻译
汇总数据通常出现在社会经济和公共安全等各个领域。汇总数据与点不关联,而与支持(例如,城市中的空间区域)相关联。由于支撑物可能取决于属性(例如贫困率和犯罪率),因此对此类数据进行建模并不直接。本文提供了一个多输出高斯流程(MOGP)模型,该模型使用各自粒度的多个聚合数据集侵入属性的功能。在提出的模型中,每个属性的函数被认为是建模为独立潜在GPS的线性混合的依赖GP。我们设计一个具有每个属性聚合过程的观察模型;该过程是GP在相应支持上的组成部分。我们还引入了混合权重的先验分布,该分布可以通过共享先验来跨域(例如城市)进行知识转移。在这种情况下,这是有利的,因为城市中的空间汇总数据集太粗糙而无法插值。提出的模型仍然可以通过利用其他城市中的聚合数据集来准确地预测属性。提出的模型的推断是基于变异贝叶的,它使人们能够使用来自多个域的聚合数据集学习模型参数。该实验表明,所提出的模型在改善现实世界数据集上的粗粒骨料数据的任务中胜过:北京的空气污染物的时间序列以及来自纽约市和芝加哥的各种空间数据集。
translated by 谷歌翻译
Natural Language Generation (NLG) has improved exponentially in recent years thanks to the development of sequence-to-sequence deep learning technologies such as Transformer-based language models. This advancement has led to more fluent and coherent NLG, leading to improved development in downstream tasks such as abstractive summarization, dialogue generation and data-to-text generation. However, it is also apparent that deep learning based generation is prone to hallucinate unintended text, which degrades the system performance and fails to meet user expectations in many real-world scenarios. To address this issue, many studies have been presented in measuring and mitigating hallucinated texts, but these have never been reviewed in a comprehensive manner before. In this survey, we thus provide a broad overview of the research progress and challenges in the hallucination problem in NLG. The survey is organized into two parts: (1) a general overview of metrics, mitigation methods, and future directions; and (2) an overview of task-specific research progress on hallucinations in the following downstream tasks, namely abstractive summarization, dialogue generation, generative question answering, data-to-text generation, machine translation, and visual-language generation. This survey serves to facilitate collaborative efforts among researchers in tackling the challenge of hallucinated texts in NLG.
translated by 谷歌翻译
动态运动是机器人武器的关键特征,使他们能够快速有效地执行任务。在任务空间运行时,软连续式操纵器目前尚未考虑动态参数。这种缺点使现有的软机器人缓慢并限制了他们处理外力的能力,特别是在物体操纵期间。我们通过使用动态操作空间控制来解决此问题。我们的控制方法考虑了3D连续体臂的动态参数,并引入了新模型,使多段软机械师能够在任务空间中顺利运行。先前仅为刚性机器人提供的先进控制方法现在适用于软机器;例如,潜在的场避免以前仅针对刚性机器人显示,现在延伸到软机器人。使用我们的方法,柔软的机械手现在可以实现以前不可能的各种任务:我们评估机械手在闭环控制实验中的性能,如拾取和障碍物避免,使用附加的软夹具抛出物体,并通过用掌握的粉笔绘制来故意将力施加到表面上。除了新的技能之外,我们的方法还提高了59%的跟踪精度,并将速度提高到19.3的尺寸,与最新的任务空间控制相比。通过这些新发现能力,软机器人可以开始挑战操纵领域的刚性机器人。我们固有的安全和柔顺的软机器人将未来的机器人操纵到一个不用的设置,其中人和机器人并行工作。
translated by 谷歌翻译